昨天我們提到,透過所處狀態、動作、以及移動後的狀態,可以根據獎勵函數獲得回饋。然而獲得這些資訊後,評估下一次遇到這個狀況,要採取什麼動作,需要透過 價值函數 幫助代理人決策。
在開始之前,我們一樣要先定義一些名詞與符號,幫助我們之後表達價值函數。
行動 (step):表示完成「獲得狀態、決定動作、移動到新狀態」整個流程。
策略 ():將狀態與動作對應到機率的函數。表示某狀態下,採取某動作的機率,記做
整體回饋 ():預期在未來,我們可以得到的回饋總和,定義如下:
,其中 T 表示最後一次狀態轉移後得到的回饋。
不過在這個情況下,如果遇到 的情況,那麼 。這並不是我們樂見的情況,所以當 時,有另一種定義:
,其中
根據上面定義的符號,我們可以組成價值函數的定義
也就是說,透過狀態價值函數,我們可以得知一個狀態的價值。相同的,我們也可以評估一個狀態下,採取某動作的價值。
綜上所述,我們現在有了評估狀態與動作的價值函數。透過數學定義,我們可以計算出狀態與動作的價值,但在實際上,應該不會有人想要手算這個東西。所以我們要嘗試用一些其他方法,幫助我們求助狀態與動作的價值。
[2018/10/15 修改] 原本是寫要使用動態規劃,後來考量到文章撰寫的連貫性,這裡不點出特定方法。